Estudo Comparativo entre Proposicionalização e Mineração de Dados Multidimensional sobre um Banco de Dados Relacional
نویسندگان
چکیده
Propositionalization and multidimensional data mining are the two main approaches applied in a relational database during the pre-processing stage of a knowledge discovery project for relational classi cation. Much has been discussed whether there are di erences between them on the nal performance of the intelligent system, however, few studies have been performed with public data of real problems to help resolve this issue. This paper presents a preliminary performance comparison between these two approaches, applied to the database from a known benchmark of an international competition organized by PKDD 1999, for a binary classi cation problem in the credit risk domain. The comparison performed using the strati ed cross-validation process was repeated 10 times to set con dence interval for the evaluation of performance measured by the statistical maximum value of the Kolmogorov-Smirnov curve (KS2), using a Multilayer Perceptron neural network as classi er. The one-tailed paired t-test showed that the Propositionalization approach gives better performance to the nal classi er with a con dence level of 95%. Resumo. Proposicionalização e mineração de dados multidimensional são as duas principais abordagens aplicadas em um banco de dados relacional durante a fase de pré-processamento em um projeto de descoberta do conhecimento para classi cação relacional. Muito tem sido discutido se há diferença entre eles no desempenho do sistema inteligente nal, porém poucos trabalhos foram realizados com dados públicos de problemas reais para ajudar a resolver esta questão. Este trabalho apresenta uma comparação de desempenho preliminar entre essas duas abordagens, aplicadas ao banco de dados de um conhecido benchmark da competição internacional organizada pela PKDD 1999, para um problema de classi cação binária no domínio de análise de risco de crédito. A comparação foi realizada através do processo de validação cruzada estrati cada, repetido 10 vezes para de nir os intervalos de con ança para a avaliação de desempenho, medido pela estatística de máximo valor da curva Kolmogorov-Smirnov (KS2), utilizando uma rede neural MultiLayer Perceptron como classi cador. O teste t-Student emparelhado unicaudal mostrou que a abordagem de proposicionalização gera um melhor desempenho ao modelo nal com o nível de con ança de 95%.
منابع مشابه
Estudo de Caso de Mineração de Dados Multi-Relacional: Aplicação do Algoritmo ConnetionBlock em um Problema da Agroindústria
This paper presents a case study of multi-relational data mining using the ConnectionBlock algorithm, applied to the database of a sugar mill. The algorithm handles multiple tables not explicitly correlated but which influence one another according to the semantics of the data involved. The experiment revealed very interesting and useful patterns that are not found using traditional algorithms....
متن کاملUso da ferramenta PreText para mineração de textos extraídos do NCBI para estudo epistemológico da Informática em Saúde
This article presents the PreText tool as auxiliary technique to a research on Health Informatics (HI) epistemology, which aim to understand, through text mining, among other methods and techniques, if the HI is characterized as science, technology, tecnoscience, or art. The PreText is used to execute texts preprocessing, transforming these texts in structured format using a bag-of-words approa...
متن کاملA Tecnologia Objeto-Relacional em Ambientes de Data Warehouse: Uso de Séries de Tempo como Tipo de Dado Não Convencional
Este artigo discute a utilização da tecnologia objeto-relacional (OR) em ambientes de Data Warehouse (DW). Em especial, apresenta uma análise sobre a viabilidade do uso de séries temporais como tipo de dado não convencional em um DW. A dimensão tempo é fundamental em qualquer DW, uma vez que estes sistemas têm por objetivo armazenar dados históricos derivados de diversos sistemas heterogêneos, ...
متن کاملUma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais
This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schem...
متن کاملUso de Anotações Semânticas para Exploração de Paralelismo em Workflows Intensivos em Dados
Applications that analyze large volumes of data are often modeled as interconnected activities (workflows) and executed on high-performance platforms. Data partitioning and replication can make the activities parallelizable. However, to define a model that results in an efficient use of the platform is not trivial. This paper proposes semantic annotations to characterize the data processing in ...
متن کامل